Open Information Extraction (OpenIE) facilitates the open-domain discovery of textual facts. However, the prevailing solutions evaluate OpenIE models on in-domain test sets aside from the training corpus, which certainly violates the initial task principle of domain-independence. In this paper, we propose to advance OpenIE towards a more realistic scenario: generalizing over unseen target domains with different data distributions from the source training domains, termed Generalized OpenIE. For this purpose, we first introduce GLOBE, a large-scale human-annotated multi-domain OpenIE benchmark, to examine the robustness of recent OpenIE models to domain shifts, and the relative performance degradation of up to 70% implies the challenges of generalized OpenIE. Then, we propose DragonIE, which explores a minimalist graph expression of textual fact: directed acyclic graph, to improve the OpenIE generalization. Extensive experiments demonstrate that DragonIE beats the previous methods in both in-domain and out-of-domain settings by as much as 6.0% in F1 score absolutely, but there is still ample room for improvement.
translated by 谷歌翻译
由于文件传达了丰富的人类知识,并且通常存在于企业中,因此建筑文档的对话系统已经越来越兴趣。其中,如何理解和从文档中检索信息是一个具有挑战性的研究问题。先前的工作忽略了文档的视觉属性,并将其视为纯文本,从而导致不完整的方式。在本文中,我们提出了一个布局感知文档级信息提取数据集,以促进从视觉上丰富文档(VRD)中提取结构和语义知识的研究,以在对话系统中产生准确的响应。 Lie包含来自4,061页的产品和官方文件的三个提取任务的62K注释,成为我们最大的知识,成为最大的基于VRD的信息提取数据集。我们还开发了扩展基于令牌的语言模型的基准方法,以考虑像人类这样的布局功能。经验结果表明,布局对于基于VRD的提取至关重要,系统演示还验证了提取的知识可以帮助找到用户关心的答案。
translated by 谷歌翻译
开放信息提取(OpenIE)促进了独立于域的大型语料库的关系事实的发现。该技术很好地适合许多开放世界的自然语言理解场景,例如自动知识基础构建,开放域问答和明确的推理。由于深度学习技术的快速发展,已经提出了许多神经开放式体系结构并取得了可观的性能。在这项调查中,我们提供了有关状态神经开放模型的广泛概述,其关键设计决策,优势和劣势。然后,我们讨论当前解决方案的局限性以及OpenIE问题本身的开放问题。最后,我们列出了最近的趋势,这些趋势可以帮助扩大其范围和适用性,从而为Openie的未来研究设定了有希望的方向。据我们所知,本文是有关此特定主题的第一篇评论。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
异常检测任务在AI安全中起着至关重要的作用。处理这项任务存在巨大的挑战。观察结果表明,深度神经网络分类器通常倾向于以高信心将分布(OOD)输入分为分配类别。现有的工作试图通过在培训期间向分类器暴露于分类器时明确对分类器施加不确定性来解决问题。在本文中,我们提出了一种替代概率范式,该范式实际上对OOD检测任务既有用,又可行。特别是,我们在培训过程中施加了近距离和离群数据之间的统计独立性,以确保inlier数据在培训期间向深度估计器显示有关OOD数据的信息很少。具体而言,我们通过Hilbert-Schmidt独立标准(HSIC)估算了Inlier和离群数据之间的统计依赖性,并在培训期间对此类度量进行了惩罚。我们还将方法与推理期间的新型统计测试相关联,加上我们的原则动机。经验结果表明,我们的方法对各种基准测试的OOD检测是有效且可靠的。与SOTA模型相比,我们的方法在FPR95,AUROC和AUPR指标方面取得了重大改进。代码可用:\ url {https://github.com/jylins/hone}。
translated by 谷歌翻译
即使面对分布(OOD)样本,也必须信任机器学习方法在现实世界环境中做出适当的决定。当前的许多方法只是旨在检测OOD示例并在给出未识别的输入时提醒用户。但是,当OOD样本与训练数据显着重叠时,二进制异常检测是无法解释或解释的,并且很少向用户提供信息。我们提出了一个新的OOD检测模型,随着输入变得更加模棱两可,在不同水平的粒度水平上进行预测,模型预测变得更加粗糙,更保守。考虑一个遇到未知鸟类和汽车的动物分类器。两种情况都是OOD,但是如果分类器认识到其对特定物种的不确定性太大并预测鸟类而不是将其视为OOD,则用户获得了更多信息。此外,我们在层次结构的每个级别上诊断了分类器的性能,以改善模型预测的解释性和解释性。我们证明了分层分类器对细粒和粗粒的OOD任务的有效性。
translated by 谷歌翻译
卷积神经网络(CNN)已经实现了医学图像细分的最先进性能,但需要大量的手动注释进行培训。半监督学习(SSL)方法有望减少注释的要求,但是当数据集大小和注释图像的数量较小时,它们的性能仍然受到限制。利用具有类似解剖结构的现有注释数据集来协助培训,这有可能改善模型的性能。然而,由于目标结构的外观不同甚至成像方式,跨解剖结构域的转移进一步挑战。为了解决这个问题,我们提出了跨解剖结构域适应(CS-CADA)的对比度半监督学习,该学习适应一个模型以在目标结构域中细分相似的结构,这仅需要通过利用一组现有现有的现有的目标域中的限制注释源域中相似结构的注释图像。我们使用特定领域的批归归量表(DSBN)来单独地标准化两个解剖域的特征图,并提出跨域对比度学习策略,以鼓励提取域不变特征。它们被整合到一个自我兼容的均值老师(SE-MT)框架中,以利用具有预测一致性约束的未标记的目标域图像。广泛的实验表明,我们的CS-CADA能够解决具有挑战性的跨解剖结构域移位问题,从而在视网膜血管图像和心脏MR图像的帮助下,在X射线图像中准确分割冠状动脉,并借助底底图像,分别仅给定目标域中的少量注释。
translated by 谷歌翻译
在临床实践中,由于存储成本和隐私限制,通常需要进行分割网络在多个站点而不是合并集的顺序数据流上不断学习。但是,在持续学习过程中,现有方法通常在以前的网站上的网络记忆性或看不见的站点上的概括性中受到限制。本文旨在解决同步记忆性和概括性(SMG)的挑战性问题,并使用新颖的SMG学习框架同时提高以前和看不见的地点的性能。首先,我们提出一个同步梯度对准(SGA)目标,\ emph {不仅}通过对先前站点(称为重播缓冲区)的小型示例进行协调优化,从而促进网络的记忆力,\ emph {but emph {又增强了}的增强。通过促进模拟域移位下的现场不变性来概括。其次,为了简化SGA目标的优化,我们设计了一种双META算法,该算法将SGA目标近似为双元目标,以优化,而无需昂贵的计算开销。第三,为了有效的排练,我们全面考虑了重播缓冲区,以考虑额外的地点多样性以降低冗余。从六个机构中依次获得的前列腺MRI数据实验表明,我们的方法可以同时获得更高的记忆性和对最先进方法的可推广性。代码可在https://github.com/jingyzhang/smg-learning上找到。
translated by 谷歌翻译
神经隐式功能最近显示了来自多个视图的表面重建的有希望的结果。但是,当重建无限或复杂的场景时,当前的方法仍然遭受过度复杂性和稳健性不佳。在本文中,我们介绍了RegSDF,这表明适当的点云监督和几何正规化足以产生高质量和健壮的重建结果。具体而言,RegSDF将额外的定向点云作为输入,并优化了可区分渲染框架内的签名距离字段和表面灯场。我们还介绍了这两个关键的正规化。第一个是在给定嘈杂和不完整输入的整个距离字段中平稳扩散签名距离值的Hessian正则化。第二个是最小的表面正则化,可紧凑并推断缺失的几何形状。大量实验是在DTU,BlendenDMV以及储罐和寺庙数据集上进行的。与最近的神经表面重建方法相比,RegSDF即使对于具有复杂拓扑和非结构化摄像头轨迹的开放场景,RegSDF也能够重建表面。
translated by 谷歌翻译
我们的工作揭示了现有主流自我监督学习方法的结构化缺点。虽然自我监督的学习框架通常采取普遍的完美实例级别不变假设,但我们仔细研究了背后的陷阱。特别是,我们认为,用于产生多个正视图的现有增强管道自然地引入了破坏下游任务的学习的分布(OOD)样本。在输入上生成不同的正增强并不总是在受益下行任务中得到偿还。为了克服这种固有的缺陷,我们介绍了一个轻量级的潜在变量模型UOTA,针对自我监督学习的视图采样问题。 Uota自适应搜索最重要的采样区域以产生视图,并为异常维护的自我监督学习方法提供可行的选择。我们的方法直接概括了许多主流自我监督的学习方法,无论损失的性质对比是否。我们经验展示了Uota对具有明显边缘的最先进的自我监督范式的优势,这很好地证明了嵌入现有方法中的OOD样本问题。特别是,理论上,理论上证明提案的优点归结为保证估计方差和偏差减少。代码可用:在https://github.com/ssl-codelab/uota。
translated by 谷歌翻译